There has been great recent advancement in human-computer chat. However, proper evaluation currently requires human judgements that produce notoriously high-variance metrics due to their inherent subjectivity. Furthermore, there is little standardization in the methods and labels used for evaluation, with an overall lack of work to compare and assess the validity of various evaluation approaches. As a consequence, existing evaluation results likely leave an incomplete picture of the strengths and weaknesses of open-domain chatbots. We aim towards a dimensional evaluation of human-computer chat that can reliably measure several distinct aspects of chat quality. To this end, we present our novel human evaluation method that quantifies the rate of several quality-related chatbot behaviors. Our results demonstrate our method to be more suitable for dimensional chat evaluation than alternative likert-style or comparative methods. We then use our validated method and existing methods to evaluate four open-domain chat models from the recent literature.
translated by 谷歌翻译
提高对话系统的用户体验通常需要密集的开发人员努力读取对话日志,运行统计分析,并激活系统缺点的相对重要性。本文介绍了一种自动分析对话日志的新方法,了解用户系统交互与总体对话质量之间的关系。与在话语级别质量预测上的事先工作不同,我们的方法了解每个互动的影响,没有话语级注释的整体用户评级,允许基于经验证据和低成本获得所得模型结论。我们的模型识别与Chatbot设置中的与整体对话质量有着强烈相关的交互。实验表明,我们模型的自动分析同意专家判决,使这项工作首先表明这种弱监督的话语级质量预测学习是高度可取的。
translated by 谷歌翻译
我们展示了一个基于逻辑推理的新型对话管理方法的聊天栏。除了帧对话一系列响应生成任务,我们将对话作为协作推断过程,其中扬声器共享信息以实时地合成新知识。我们的Chatbot管道在三个广泛的阶段完成了这种建模。第一阶段将用户话语转换为符号谓词表示。然后,第二阶段与更大的知识库结合使用这种结构化表示来合成使用有效的图形匹配来扫描新谓词。在第三阶段和最后阶段,我们的机器人选择一个小的谓词子集并将它们转化为英语响应。这种方法为了解用户输入的潜在语义,灵活的主动措施以及与对话背景相干的响应。
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
Artificial intelligence methods including deep neural networks (DNN) can provide rapid molecular classification of tumors from routine histology with accuracy that matches or exceeds human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools help provide insights into what models have learned when corresponding histologic features are poorly defined. Here, we present a method for improving explainability of DNN models using synthetic histology generated by a conditional generative adversarial network (cGAN). We show that cGANs generate high-quality synthetic histology images that can be leveraged for explaining DNN models trained to classify molecularly-subtyped tumors, exposing histologic features associated with molecular state. Fine-tuning synthetic histology through class and layer blending illustrates nuanced morphologic differences between tumor subtypes. Finally, we demonstrate the use of synthetic histology for augmenting pathologist-in-training education, showing that these intuitive visualizations can reinforce and improve understanding of histologic manifestations of tumor biology.
translated by 谷歌翻译
This paper presents a Neuromorphic Starter Kit, which has been designed to help a variety of research groups perform research, exploration and real-world demonstrations of brain-based, neuromorphic processors and hardware environments. A prototype kit has been built and tested. We explain the motivation behind the kit, its design and composition, and a prototype physical demonstration.
translated by 谷歌翻译
肾细胞癌(RCC)是一种常见的癌症,随着临床行为的变化。懒惰的RCC通常是低级的,没有坏死,可以在没有治疗的情况下监测。激进的RCC通常是高级的,如果未及时检测和治疗,可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到,但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要,因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征,以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法,即按区域(Corrfabr)相关的特征聚集,用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成:(1)特征聚集,其中从放射学和病理图像中提取区域级特征,(2)融合,放射学特征与病理特征相关的放射学特征在区域级别上学习,并且(3)在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此,在训练过程中,Corrfabr从放射学和病理学图像中学习,但是在没有病理图像的情况下,Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能,二进制分类F1分数从0.68(0.04)增加到0.73(0.03)。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
我们介绍了一种考虑复杂的环境条件,在极地地区介绍了一种在极地地区长距离海上路线计划的方法。该方法允许构建优化的路线,描述了该过程的三个主要阶段:使用不均匀网格对环境条件进行离散建模,网格最佳路径的构建以及路径平滑。为了说明不同的车辆性能,我们构建了一系列数据驱动的功能,这些功能可以应用于环境网格,以确定给定容器和网格单元的速度限制和燃料要求,以图形和地理空间表示这些数量。在描述我们的结果时,我们展示了一个示例用途,用于Polar Research船RRS David Attenborough爵士(SDA)的路线规划,核算冰的性能特征,并验证韦德尔海地区的时空路线构建,南极洲。我们通过证明路线的变化取决于季节性海冰可变性,所使用的路线规划目标函数的差异以及其他环境条件(如电流)的存在来证明这种路线构建方法的多功能性。为了证明我们的方法的普遍性,我们在北极海洋和波罗的海中介绍了例子。本手稿中概述的技术是通用的,因此可以应用于具有不同特征的血管。我们的方法不仅可以拥有一个船只计划程序,而且我们概述了该工作流程如何适用于更广泛的社区,例如商业和乘客运输。
translated by 谷歌翻译